Análisis exploratorio

Author

Juanjo Doblas

1 - Introducción

En este documento realizaremos un análisis exploratorio de los datos que se encuentran en el archivo causas_muerte.xls.

Esta tabla de datos contiene información sobre las causas de muerte en la mayoría de países del mundo desde el año 1990 hasta el 2019, así como algunas covariables.

Primero de todo cargaremos las librerías necesarias para realizar el análisis.

Ahora, carguemos nuestra base de datos y presentemos un resumen.

Rows: 6,000
Columns: 44
$ pais                     <chr> "Afganistán", "Afganistán", "Afganistán", "Af…
$ codigo_Pais              <chr> "AFG", "AFG", "AFG", "AFG", "AFG", "AFG", "AF…
$ año                      <ord> 1990, 1991, 1992, 1993, 1994, 1995, 1996, 199…
$ poblacion                <dbl> 10694796, 10745167, 12057433, 14003760, 15455…
$ meningitis               <dbl> 2159, 2218, 2475, 2812, 3027, 3102, 3193, 330…
$ alzheimer                <dbl> 1116, 1136, 1162, 1187, 1211, 1225, 1239, 125…
$ parkinson                <dbl> 371, 374, 378, 384, 391, 394, 398, 402, 405, …
$ def_nutricionales        <dbl> 2087, 2153, 2441, 2837, 3081, 3131, 3175, 325…
$ malaria                  <dbl> 93, 189, 239, 108, 211, 175, 175, 240, 563, 4…
$ ahogo                    <dbl> 1370, 1391, 1514, 1687, 1809, 1881, 1969, 207…
$ violencia_inter          <dbl> 1538, 2001, 2299, 2589, 2849, 2969, 3331, 302…
$ trastornos_maternos      <dbl> 2655, 2885, 3315, 3671, 3863, 4035, 4203, 435…
$ VIH                      <dbl> 34, 41, 48, 56, 63, 71, 78, 84, 89, 93, 97, 1…
$ trastornos_cons_drogas   <dbl> 93, 102, 118, 132, 142, 151, 159, 168, 173, 1…
$ tuberculosis             <dbl> 4661, 4743, 4976, 5254, 5470, 5628, 5821, 594…
$ enf_cardiovasculares     <dbl> 44899, 45492, 46557, 47951, 49308, 50158, 511…
$ infecciones_respi        <dbl> 23741, 24504, 27404, 31116, 33390, 34030, 347…
$ trastornos_neonatales    <dbl> 15612, 17128, 20060, 22335, 23288, 23722, 241…
$ trastornos_Cons_alcohol  <dbl> 72, 75, 80, 85, 88, 91, 93, 96, 97, 98, 99, 1…
$ autolesiones             <dbl> 696, 751, 855, 943, 993, 1032, 1070, 1104, 11…
$ exp_fuer_naturaleza      <dbl> 0, 1347, 614, 225, 160, 381, 70, 175, 7123, 7…
$ enf_diarreicas           <dbl> 4235, 4927, 6123, 8174, 8215, 9566, 9682, 106…
$ exp_amb_temperatura      <dbl> 175, 113, 38, 41, 44, 46, 49, 50, 51, 51, 52,…
$ neoplasias               <dbl> 11580, 11796, 12218, 12634, 12914, 13106, 133…
$ conflicto_terrorismo     <dbl> 1490, 3370, 4344, 4096, 8959, 5525, 3255, 672…
$ diabetes_mellitus        <dbl> 2108, 2120, 2153, 2195, 2231, 2248, 2298, 234…
$ enfermedad_crónica       <dbl> 3709, 3724, 3776, 3862, 3932, 3974, 4041, 409…
$ envenenamientos          <dbl> 338, 351, 386, 425, 451, 467, 485, 504, 505, …
$ desnutrición_energetica  <dbl> 2054, 2119, 2404, 2797, 3038, 3087, 3130, 320…
$ lesiones_carretera       <dbl> 4154, 4472, 5106, 5681, 6001, 6211, 6446, 667…
$ enfermedades_cronicas    <dbl> 5945, 6050, 6223, 6445, 6664, 6823, 7000, 716…
$ cirrosis_crónicas        <dbl> 2673, 2728, 2830, 2943, 3027, 3076, 3133, 320…
$ enfermedades_digestivas  <dbl> 5005, 5120, 5335, 5568, 5739, 5843, 5966, 609…
$ fuego_calientes          <dbl> 323, 332, 360, 396, 420, 434, 450, 469, 472, …
$ hepatitis_aguda          <dbl> 2985, 3092, 3325, 3601, 3816, 3946, 4098, 425…
$ total_muertes            <dbl> 147971, 156844, 169156, 182230, 194795, 19652…
$ pib                      <dbl> 6055.475, 1577.317, 5020.360, 10943.549, 6721…
$ idh                      <dbl> 0.273, 0.279, 0.287, 0.297, 0.292, 0.310, 0.3…
$ esperanza_vida_m         <dbl> 48.40, 49.14, 50.32, 52.74, 53.54, 54.09, 54.…
$ esperanza_vida_h         <dbl> 43.71, 44.35, 45.07, 50.22, 49.53, 51.04, 51.…
$ esperanza_vida           <dbl> 45.97, 46.66, 47.60, 51.47, 51.50, 52.54, 53.…
$ emisiones_CO2            <dbl> 2.910, 2.779, 1.696, 1.627, 1.555, 1.380, 1.3…
$ emisiones_CO2_PIB        <dbl> 0.10, 0.10, 0.06, 0.08, 0.10, 0.06, 0.06, 0.0…
$ emisiones_CO2_per_capita <dbl> 0.24, 0.21, 0.12, 0.11, 0.10, 0.08, 0.08, 0.0…

1.1 - Descripción de las variables

Realicemos una pequeña descripción de cada variable:

  • pais: país del que proceden los datos. Veamos los países que se recogen.
# A tibble: 200 × 1
   pais             
   <chr>            
 1 Afganistán       
 2 Albania          
 3 Argelia          
 4 Samoa Americana  
 5 Andorra          
 6 Angola           
 7 Antigua y Barbuda
 8 Argentina        
 9 Armenia          
10 Australia        
# ℹ 190 more rows
  • codigo_Pais: código de 3 letras para los nombres de los países según la norma ISO 3166-1 alfa-3.

  • año: año en el que se recogen los datos. Veamos que no falta ningún año en ningún país desde 1990 hasta 2019. Lo veremos en la siguiente tabla que recoge el número de muestras, y por tanto de países, por cada año.

año
1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 
 200  200  200  200  200  200  200  200  200  200  200  200  200  200  200  200 
2006 2007 2008 2009 2010 2011 2012 2013 2014 2015 2016 2017 2018 2019 
 200  200  200  200  200  200  200  200  200  200  200  200  200  200 
  • población: número de habitantes de cada país en cada año.

Las variables desde la columna meningitis hasta hepatitis_aguda recogen el número de muertes por la causa que da nombre a la variable en cada país y cada año.

  • total_muertes: Es el número de muertes totales que ha habido en cada año en cada país. Es la suma de todas las causas de muerte.

  • pib: producto interior bruto en millones de dólares. Expresa el valor monetario de la producción de bienes y servicios de demanda final.

  • idh: índice de desarrollo humano. Se calcula en base a la esperanza de vida, el nivel de educación y el ingreso per cápita.

  • esperanza_vida_m: esperanza de vida de las mujeres en años.

  • esperanza_vida_h: esperanza de vida de los hombres en años.

  • esperanza_vida: esperanza de vida de la población en años.

  • emisiones_CO2: cantidad de CO2 emitido en millones de toneladas.

  • emisiones_CO2_PIB: cantidad de CO2 emitido por cada 1000 dólares de PIB en kilogramos.

  • emisiones_CO2_per_capita: cantidad de CO2 emitido per cápita en toneladas.

2 - Transformación de datos

En este apartado realizaremos una transformación a la base de datos con el objetivo de simplificar el posterior análisis. Estas transformaciones incluyen la reducción de países, la agrupación de causas de muerte y la eliminación de algunas covariables

2.1 - Reducción de países

Primero de todo, nos restringiremos a los datos que nos proporcionan los países europeos para así reducir el número de individuos. Filtremos los países de este continente en nuestra base de datos.

2.2 - Agrupación de causas de muerte

Veamos la distribución temporal de la cantidad de defunciones de cada causa mediante gráficos de cajas, ordenados de mayor a menor cantidad de muertes.

A continuación, una tabla con el número de defunciones totales por cada causa, también ordenada de mayor a menor cantidad de muertes.

Como podemos ver, hay algunas causas de muerte que apenas causan impacto. Por ello, con el objetivo de reducir dimensionalidad, vamos a agruparlas siguiendo el criterio de la OMS en este enlace. Los grupos que nos quedan son los siguientes:

  • Enfermedades infecciosas o parasitarias (enf_infec_paras). En este grupo incluimos meningitis, malaria, VIH y tuberculosis.

  • Enfermedades del sistema nervioso (enf_sist_nervioso). En este grupo incluimos alzheimer y parkinson.

  • Enfermedades endocrinas, nutricionales o metabólicas (enf_metabolicas). En este grupo incluimos def_nutricionales, diabetes_mellitus y desnutrición_energetica.

  • Causas externas de morbilidad o mortalidad, lesiones y envenenamientos (causas_externas). En este grupo incluimos ahogo, violencia_inter, autolesiones, exp_fuer_naturaleza, conflicto_terrorismo, lesiones_carretera, exp_amb_temperatura, envenenamientos y fuego_calientes.

  • Causas relacionadas con el embarazo, parto o puerperio (en la madre) y afecciones en el periodo perinatal (en el hijo) (trastornos_embarazo). En este grupo incluimos trastornos_maternos y trastornos_neonatales.

  • Trastornos mentales, del comportamiento o del desarrollo neurológico (trastornos_mentales). En este grupo incluimos trastornos_cons_drogas y trastornos_Cons_alcohol.

  • Enfermedades del sistema circulatorio (enf_cardiovasculares). En este grupo incluimos enf_cardiovasculares.

  • Enfermedades del sistema respiratorio (infecciones_respi). En este grupo incluimos infecciones_respi.

  • Enfermedades del sistema digestivo (enf_sist_digestivo). En este grupo incluimos enf_diarreicas, cirrosis_crónicas, enfermedades_digestivas y hepatitis_aguda.

  • Neoplasias (neoplasias). En este grupo incluimos neoplasias.

  • Enfermedades crónicas (enf_cronicas). En este grupo incluimos enfermedad_crónica y enfermedades_cronicas.

Creemos la nueva base de datos con las causas de muerte agrupadas.

Veamos de nuevo la distribución temporal de la cantidad de defunciones de cada causa, ahora con la nueva agrupación.

A continuación, de nuevo, una tabla con el número de defunciones totales por cada causa.

2.3 - Eliminación de algunas covariables

Recordemos que las covariables que tenemos son población, pib, idh, esperanza_vida_m, esperanza_vida_h, esperanza_vida, emisiones_CO2, emisiones_CO2_PIB y emisiones_CO2_per_capita. Sin embargo, notemos que nos proporcionan información redundante. El Índice de Desarrollo Humano se calcula a partir del PIB y de la esperanza de vida, así que nos podríamos deshacer de estas variables. Por otro lado, cuanta más población tenga un país, más emisiones de CO2 habrá, por lo que también podemos eliminar la variable emisiones_CO2. En efecto, podemos ver las altas correlaciones que tienen las variables entre sí en la siguiente matriz de correlaciones.

Podemos ver efectivamente que idh está altamente correlacionado con las variables relacionadas con la esperanza de vida. También vemos una alta correlación entre poblacion y emisiones_CO2. Sin embargo, la correlación entre idh y pib no es tan alta, pero esto es debido a que el IDH se calcula a partir del logaritmo del PIB, por lo que no tienen alta correlación lineal.

De esta forma, dejaremos únicamente las covariables poblacion, idh, emisiones_CO2_PIB y emisiones_CO2_per_capita en la base de datos.

Rows: 1,380
Columns: 19
$ pais                     <chr> "Albania", "Albania", "Albania", "Albania", "…
$ codigo_Pais              <chr> "ALB", "ALB", "ALB", "ALB", "ALB", "ALB", "AL…
$ año                      <ord> 1990, 1991, 1992, 1993, 1994, 1995, 1996, 199…
$ poblacion                <dbl> 3295066, 3302082, 3303739, 3300711, 3293999, …
$ enf_infec_paras          <dbl> 154, 158, 149, 139, 126, 116, 106, 98, 91, 80…
$ enf_sist_nervioso        <dbl> 453, 459, 459, 460, 463, 477, 491, 505, 519, …
$ enf_metabolicas          <dbl> 172, 189, 192, 194, 192, 203, 206, 207, 203, …
$ causas_externas          <dbl> 893, 979, 987, 963, 949, 963, 996, 3104, 1136…
$ trastornos_embarazo      <dbl> 897, 887, 870, 858, 847, 819, 800, 824, 845, …
$ trastornos_mentales      <dbl> 15, 18, 18, 21, 27, 30, 30, 31, 36, 33, 35, 4…
$ enf_cardiovasculares     <dbl> 6701, 6903, 6699, 6480, 6191, 6500, 6822, 706…
$ infecciones_respi        <dbl> 2140, 2196, 2104, 1977, 1795, 1627, 1461, 130…
$ enf_sist_digestivo       <dbl> 1054, 1071, 1038, 997, 945, 892, 862, 837, 80…
$ neoplasias               <dbl> 2616, 2698, 2642, 2586, 2493, 2614, 2756, 287…
$ enf_cronicas             <dbl> 1247, 1255, 1200, 1144, 1064, 1068, 1074, 106…
$ total_muertes            <dbl> 16342, 16813, 16358, 15819, 15092, 15309, 156…
$ idh                      <dbl> 0.647, 0.629, 0.614, 0.617, 0.624, 0.634, 0.6…
$ emisiones_CO2_PIB        <dbl> 0.42, 0.39, 0.23, 0.20, 0.19, 0.15, 0.14, 0.1…
$ emisiones_CO2_per_capita <dbl> 2.03, 1.35, 0.75, 0.71, 0.76, 0.68, 0.68, 0.5…

3 - Tratamiento de datos composicionales

Las variables que nos dan información sobre las causas de muerte tienen naturaleza composicional. En efecto, todas las entradas son positivas, ya que son conteos de muertes; y la única información relevante en cada fila es la contenida en su vector de proporciones, ya que este nos da el porcentaje de muertes por cada causa.

Antes de poder aplicar técnicas de análisis de datos composicionales hay que tratar los datos siguiendo los pasos siguientes:

  1. Se sustituyen (imputan) los ceros.

  2. Se transforman logarítmicamente los datos.

3.1 - Imputación de ceros

Hay varias estrategias para imputar ceros. Primero, nos interesa saber cuantos conteos de ceros hay en cada variable. Lo vemos en la siguiente tabla:

Rows: 1
Columns: 11
$ enf_infec_paras      <int> 0
$ enf_sist_nervioso    <int> 0
$ enf_metabolicas      <int> 0
$ causas_externas      <int> 0
$ trastornos_embarazo  <int> 26
$ trastornos_mentales  <int> 30
$ enf_cardiovasculares <int> 0
$ infecciones_respi    <int> 0
$ enf_sist_digestivo   <int> 0
$ neoplasias           <int> 0
$ enf_cronicas         <int> 0

La siguiente salida nos da el porcentaje de ceros:

[1] 0.3689065

Como el porcentaje de ceros es menor a \(10\%\), los sustituiremos por \(0,65\).

3.2 - Transformación CLR

Utilizaremos la transformación logarítmica centrada, que consiste en dividir cada entrada por la media geométrica de la fila y aplicarle un logaritmo.

Rows: 1,380
Columns: 19
$ pais                     <chr> "Albania", "Albania", "Albania", "Albania", "…
$ codigo_Pais              <chr> "ALB", "ALB", "ALB", "ALB", "ALB", "ALB", "AL…
$ año                      <ord> 1990, 1991, 1992, 1993, 1994, 1995, 1996, 199…
$ poblacion                <dbl> 3295066, 3302082, 3303739, 3300711, 3293999, …
$ enf_infec_paras          <dbl> -1.421125, -1.441382, -1.479668, -1.535840, -…
$ enf_sist_nervioso        <dbl> -0.34218518, -0.37492704, -0.35456392, -0.339…
$ enf_metabolicas          <dbl> -1.310583, -1.262230, -1.226119, -1.202456, -…
$ causas_externas          <dbl> 0.3365093, 0.3825544, 0.4110559, 0.3997394, 0…
$ trastornos_embarazo      <dbl> 0.34097855, 0.28386773, 0.28487908, 0.2842900…
$ trastornos_mentales      <dbl> -3.750027, -3.613605, -3.593242, -3.425792, -…
$ enf_cardiovasculares     <dbl> 2.351935, 2.335734, 2.326099, 2.306162, 2.277…
$ infecciones_respi        <dbl> 1.21048380, 1.19041555, 1.16798145, 1.1190217…
$ enf_sist_digestivo       <dbl> 0.5022704, 0.4723708, 0.4614369, 0.4344367, 0…
$ neoplasias               <dbl> 1.411324, 1.396289, 1.395677, 1.387554, 1.367…
$ enf_cronicas             <dbl> 0.6704186, 0.6309136, 0.6064627, 0.5719721, 0…
$ total_muertes            <dbl> 16342, 16813, 16358, 15819, 15092, 15309, 156…
$ idh                      <dbl> 0.647, 0.629, 0.614, 0.617, 0.624, 0.634, 0.6…
$ emisiones_CO2_PIB        <dbl> 0.42, 0.39, 0.23, 0.20, 0.19, 0.15, 0.14, 0.1…
$ emisiones_CO2_per_capita <dbl> 2.03, 1.35, 0.75, 0.71, 0.76, 0.68, 0.68, 0.5…

4 - Matriz de correlaciones

Analicemos la matriz de correlaciones de las causas de muerte y las covariables. Usaremos la correlación de Spearman y no la de Pearson ya que nuestras variables de interés, las causas de muerte, son discretas.

Fijémonos primero en las correlaciones entre causas de muerte y covariables. Las variables población y emisiones_CO2_per_capita apenas tiene correlación con las causas de muerte. La variable emisiones_CO2_PIB tiene correlaciones más altas, las más significativas son con enf_sist_nervioso y causas_externas. Por otro lado, la variable idh presenta altas correlaciones con algunas causas, tanto positivamente como negativamente. Esto es debido a que un IDH bajo corresponde a países poco desarrollados y podemos ver en las correlaciones negativas enfermedades que suelen ser comunes en estos países: enfermedades infecciosas y parasitarias, las cuales recordemos que engloban a meningitis, malaria, VIH y tuberculosis; y trastornos del embarazo, los cuales engloban trastornos maternos y neonatales. Luego, en las correlaciones positivas, podemos ver enfermedades del sistema nervioso, que engloba alzheimer y parkinson; neoplasias y enfermedades crónicas.

Por último, vemos que hay algunas enfermedades bastante correlacionadas y otras que no. La correlación positiva que más destaca es entre enfermedades del sistema nervioso y neoplasias, con un valor de \(0.82\); mientras que la correlación negativa más destacada es entre enfermedades del sistema nervioso y trastornos del embarazo, con un valos de \(-0.72\). La correlaciones más pequeña en valor absoluto, con un valor de \(0\), corresponde a enfermedades metabólicas con infecciones respiratorias.

Cabe destacar el caso de la variable total_muertes que no tiene ninguna correlación considerable exceptuando con población, la cual es obvia.

5 - Tendencias temporales

En este apartado vamos a estudiar las tendencias temporales de cada causa

Vamos a trabajar con un tibble donde hay \(30\) filas, una para cada año, donde los conteos de cada enfermedad son la suma de los conteos en todos los países de Europa en ese año.

Rows: 30
Columns: 12
$ año                  <ord> 1990, 1991, 1992, 1993, 1994, 1995, 1996, 1997, 1…
$ enf_infec_paras      <dbl> 60594, 63604, 68723, 78164, 87625, 91921, 89148, …
$ enf_sist_nervioso    <dbl> 203318, 210386, 216637, 223731, 229549, 234700, 2…
$ enf_metabolicas      <dbl> 120422, 122416, 123916, 126732, 128387, 129416, 1…
$ causas_externas      <dbl> 443676, 463734, 504519, 551287, 582808, 579318, 5…
$ trastornos_embarazo  <dbl> 107599, 101728, 94695, 89298, 85891, 80541, 75162…
$ trastornos_mentales  <dbl> 63639, 69365, 78402, 90635, 99876, 101872, 99959,…
$ enf_cardiovasculares <dbl> 3511347, 3567511, 3656760, 3872094, 3996749, 3985…
$ infecciones_respi    <dbl> 218396, 215852, 217936, 228723, 233884, 236909, 2…
$ enf_sist_digestivo   <dbl> 429695, 436562, 448848, 471906, 490331, 496734, 4…
$ neoplasias           <dbl> 1550681, 1572939, 1604179, 1660453, 1687884, 1685…
$ enf_cronicas         <dbl> 404001, 406141, 410952, 425140, 430979, 429868, 4…

Ahora lo transformamos en una serie temporal y elaboramos los gráficos.

En estos primeros dos gráficos vemos un comportamiento alcista durante los primeros años hasta alcanzar sus máximos alrededor de 1995, para luego seguir con un comportamiento bajista y acabar en 2019 con una cantidad inferior a la cantidad de muertes iniciales, aunque en el segundo gráfico es bastante más inferior que en el primero.

En estos cuatro gráficos podemos ver una clara tendencia alcista del número de muertes. Sin embargo, las defunciones por enfermedades del sistema digestivo se han estabilizado entre \(550000\) y \(600000\) a partir de 2005, y en las defunciones por enfermedades crónicas tenemos la tendencia alcista a partir de 2006.

En este gráfico podemos apreciar una clara tendencia bajista, siendo la cantidad de muertes de 2019 más de un \(75\%\) inferior a la cantidad de 1990.

En estos últimos tres gráficos se observa un comportamiento sinusoidal, con tendencias alcistas y bajistas en diferentes ventanas temporales. Las primeras dos causas tienen su mínimo en 1990, mientras que la tercera lo tiene en 2011. Por otro lado, el máximo de la primera lo alcanza en 2005, la segunda en 2003 y la tercera en 1995.

Por último, comparemos la evolución de todas las causas en tres gráficos diferentes: número de muertes bajo, número de muertes medio y número de muertes alto.

6 - Análisis en componentes principales

En este apartado realizaremos análisis en componentes principales (ACP). Veremos tres análisis: con las medianas temporales para cada país, en 1990 y en 2019; con el objetivo de ver si se producen cambios significativos a lo largo del tiempo en las agrupaciones de países.

ACP medianas temporales

En este primer análisis se hará sobre un conjunto de datos donde para cada país tendremos la mediana de cada causa de muerte y del IDH con respecto al tiempo. Construyamos primero este conjunto de datos.

Veamos si hay alguna entrada que sea \(0\).

Rows: 1
Columns: 1
$ total_ceros <int> 2

Como hay dos \(0\), para poder realizar la transformación clr lo tendremos que imputar. Lo vamos a sustituir por \(0.65\) y luego aplicaremos la transformación clr y centraremos los datos.

Antes de realizar el método de componentes principales, observemos la matriz de varianzas-covarianzas y la matriz de correlación.

Matriz de varianzas-covarianzas
                     enf_infec_paras enf_sist_nervioso enf_metabolicas
enf_infec_paras           0.45962841       -0.21104586     -0.20321300
enf_sist_nervioso        -0.21104586        0.21548869      0.07701702
enf_metabolicas          -0.20321300        0.07701702      0.40747533
causas_externas           0.12569614       -0.08915561     -0.14727394
trastornos_embarazo       0.13720098       -0.21737959      0.07382990
trastornos_mentales       0.06216285       -0.05834067     -0.33252523
enf_cardiovasculares      0.02881971       -0.03946454     -0.03907456
infecciones_respi        -0.14200506        0.10840577      0.01159016
enf_sist_digestivo        0.02177634       -0.01832753     -0.02712961
neoplasias               -0.15496611        0.13694347      0.06253884
enf_cronicas             -0.12405441        0.09585884      0.11676509
                     causas_externas trastornos_embarazo trastornos_mentales
enf_infec_paras           0.12569614          0.13720098          0.06216285
enf_sist_nervioso        -0.08915561         -0.21737959         -0.05834067
enf_metabolicas          -0.14727394          0.07382990         -0.33252523
causas_externas           0.15264778         -0.01506810          0.18170191
trastornos_embarazo      -0.01506810          0.66043248         -0.34550694
trastornos_mentales       0.18170191         -0.34550694          0.72369244
enf_cardiovasculares      0.05342544          0.03607488          0.02053999
infecciones_respi        -0.12071350         -0.06170254         -0.09445249
enf_sist_digestivo        0.01378099         -0.05175434          0.02356167
neoplasias               -0.05306541         -0.17239868         -0.03441642
enf_cronicas             -0.10197569         -0.04372804         -0.14641710
                     enf_cardiovasculares infecciones_respi enf_sist_digestivo
enf_infec_paras               0.028819712       -0.14200506        0.021776337
enf_sist_nervioso            -0.039464540        0.10840577       -0.018327535
enf_metabolicas              -0.039074558        0.01159016       -0.027129615
causas_externas               0.053425440       -0.12071350        0.013780987
trastornos_embarazo           0.036074878       -0.06170254       -0.051754341
trastornos_mentales           0.020539988       -0.09445249        0.023561674
enf_cardiovasculares          0.094083792       -0.09114066        0.006839361
infecciones_respi            -0.091140658        0.26997763       -0.018394783
enf_sist_digestivo            0.006839361       -0.01839478        0.078810735
neoplasias                   -0.009612539        0.04655474       -0.009503442
enf_cronicas                 -0.060490877        0.09188073       -0.019659379
                       neoplasias enf_cronicas
enf_infec_paras      -0.154966108  -0.12405441
enf_sist_nervioso     0.136943474   0.09585884
enf_metabolicas       0.062538838   0.11676509
causas_externas      -0.053065411  -0.10197569
trastornos_embarazo  -0.172398676  -0.04372804
trastornos_mentales  -0.034416418  -0.14641710
enf_cardiovasculares -0.009612539  -0.06049088
infecciones_respi     0.046554743   0.09188073
enf_sist_digestivo   -0.009503442  -0.01965938
neoplasias            0.123888001   0.06403754
enf_cronicas          0.064037538   0.12778331

Podemos ver que los valores de las varianzas se agrupan entre \(0.07881073\) y \(0.72369244\), siendo el valor mínimo de enf_sist_digestivo y el máximo de trastornos_mentales. Debido a esta diferencia entre las varianzas, realizaremos el ACP escalado, ya que si no, las componentes principales le darían más peso a las variables con una alta varianza. Veamos de una forma más clara las varianzas ordenadas de menor a mayor.

  enf_sist_digestivo enf_cardiovasculares           neoplasias 
          0.07881073           0.09408379           0.12388800 
        enf_cronicas      causas_externas    enf_sist_nervioso 
          0.12778331           0.15264778           0.21548869 
   infecciones_respi      enf_metabolicas      enf_infec_paras 
          0.26997763           0.40747533           0.45962841 
 trastornos_embarazo  trastornos_mentales 
          0.66043248           0.72369244 

Por otro lado, la matriz de correlaciones es:

La mayor correlación positiva se encuentra entre enf_sist_nervioso y neoplasias, con un valor de \(0.76\). Por otro lado, la mayor correlación negativa se encuentra entre causas_externas y enf_cronicas, con un valor de \(-0.66\).

Pasemos al estudio de las componentes principales. Calculemos los valores y vectores propios de la matriz de varianzas-covarianzas.

Vectores propios
                             PC1          PC2         PC3         PC4
enf_infec_paras       0.34920146  0.138918812 -0.25167506  0.07063549
enf_sist_nervioso    -0.38309369 -0.289683158  0.11797771 -0.08163132
enf_metabolicas      -0.27937119  0.316384032  0.35617650  0.15941142
causas_externas       0.38706501 -0.225188351  0.09213182 -0.13435495
trastornos_embarazo   0.13351622  0.596987506  0.02730497 -0.12986777
trastornos_mentales   0.21069579 -0.493784742 -0.18992480 -0.19321510
enf_cardiovasculares  0.24358978 -0.047939181  0.61959501 -0.05448668
infecciones_respi    -0.30160498 -0.003787135 -0.51042307 -0.06414445
enf_sist_digestivo    0.09845823 -0.164468820 -0.03295815  0.93801720
neoplasias           -0.34084995 -0.324065596  0.31066194 -0.04703037
enf_cronicas         -0.40624676  0.106668259 -0.09245102  0.03891734
                             PC5         PC6         PC7          PC8
enf_infec_paras      -0.21754366  0.69697913 -0.34371004 -0.010048526
enf_sist_nervioso     0.10358226  0.22575029  0.01025448  0.270403531
enf_metabolicas      -0.45049287 -0.29799340 -0.32052580  0.276681513
causas_externas      -0.12538008  0.03280905  0.58586986  0.486064804
trastornos_embarazo   0.25905793 -0.16306824  0.30451342 -0.012139343
trastornos_mentales  -0.21586838 -0.45477738 -0.16061479 -0.348664052
enf_cardiovasculares  0.49329372  0.08290542 -0.18137435 -0.329591129
infecciones_respi     0.54073951 -0.09476218 -0.15696079  0.214769933
enf_sist_digestivo    0.15214402 -0.08986165  0.13520098 -0.004395798
neoplasias            0.03807109  0.27597886  0.05009535  0.053312678
enf_cronicas         -0.22189230  0.19968490  0.48880491 -0.578478452
                             PC9         PC10       PC11
enf_infec_paras      -0.01484152 -0.013055185 -0.3724202
enf_sist_nervioso     0.39707352  0.625405357 -0.2550011
enf_metabolicas      -0.27354730  0.027542313 -0.3506553
causas_externas      -0.36023863  0.028242765 -0.2146224
trastornos_embarazo   0.45616224 -0.119226689 -0.4464203
trastornos_mentales   0.13792265 -0.013859121 -0.4673118
enf_cardiovasculares -0.31955084  0.171046147 -0.1684950
infecciones_respi    -0.42757266 -0.089137831 -0.2854261
enf_sist_digestivo    0.09475754 -0.003336136 -0.1542135
neoplasias            0.15646287 -0.731607611 -0.1933501
enf_cronicas         -0.30333968  0.142377059 -0.1963662

Podemos ver que entre la primera y segunda componente le dan un peso considerable a todas las variables, aunque enf_sist_digestivo y enf_cardiovasculares son las que menos peso tienen.

Valores propios
         eigenvalue variance.percent cumulative.variance.percent
Dim.1  4.504083e+00     4.094621e+01                    40.94621
Dim.2  2.196328e+00     1.996662e+01                    60.91283
Dim.3  1.329300e+00     1.208455e+01                    72.99738
Dim.4  9.889199e-01     8.990181e+00                    81.98756
Dim.5  6.300997e-01     5.728179e+00                    87.71574
Dim.6  5.300500e-01     4.818637e+00                    92.53437
Dim.7  2.696369e-01     2.451245e+00                    94.98562
Dim.8  2.501030e-01     2.273664e+00                    97.25928
Dim.9  1.731724e-01     1.574295e+00                    98.83358
Dim.10 1.283067e-01     1.166425e+00                   100.00000
Dim.11 1.639045e-29     1.490041e-28                   100.00000

A partir de esta tabla de valores podemos ver que con dos componentes principales nos permiten explicar aproximadamente el \(61\%\) de la variación total. Para ver de una manera más detallada el peso de estas componentes, podemos hacer el siguiente gráfico, donde se muestra un diagrama de barras donde a cada dimensión le asociamos el porcentaje de variación que explica:

A partir de la tabla y el gráfico podemos elegir dos o tres componentes principales, ya que a partir de la cuarta componente el porcentaje de variabilidad no aumenta lo suficiente como para considerar una dimensión más. Representemos estas variables en el espacio.

La mayoría de variables están bien representadas y contribuyen aproximadamente lo mismo al plano principal, exceptuando enf_cardiovasculares y enf_sist_digestivo debido al poco peso que tienen.

Podemos ver las contribuciones de cada variable al plano principal

Veamos también la calidad de representación de las variables:

En estos dos gráficos podemos ver de forma clara la mala representación de estas variables.

Por último veamos una representación de los países en el plano principal con un biplot. Los colorearemos en función del IDH para ver si se agrupan en función de este. Podemos hacer cuatro grupos, separados por los cuartiles. Esto lo haremos también en los ACP de 1990 y 2019.

Podemos ver que los países con mayor IDH se agrupan en el tercer cuadrante, caracterizado por las enfermedades del sistema nervioso y las neoplasias, propias de países más desarrollados. Por otro lado, los países con menor IDH se agrupan en el primer cuadrante, caracterizado por las enfermedades infecciosas y parasitarias y los trastornos del embarazo, propias de países menos desarrollados. A su vez, podemos ver una transición del IDH entre el primer y el tercer cuadrante.

ACP 1990

Veamos ahora un análisis en componentes principales donde tomaremos los datos de 1990. Construyamos primero este conjunto de datos.

Veamos si hay alguna entrada que sea \(0\).

Rows: 1
Columns: 1
$ total_ceros <int> 1

Como hay un \(0\), para poder realizar la transformación clr lo tendremos que imputar. Lo vamos a sustituir por \(0.65\) y luego aplicaremos la transformación clr y centraremos los datos.

Antes de realizar el método de componentes principales, observemos la matriz de varianzas-covarianzas y la matriz de correlación.

Matriz de varianzas-covarianzas
                     enf_infec_paras enf_sist_nervioso enf_metabolicas
enf_infec_paras          0.216550628       -0.10782562    -0.112244347
enf_sist_nervioso       -0.107825621        0.15410203     0.059121910
enf_metabolicas         -0.112244347        0.05912191     0.308843922
causas_externas          0.038279845       -0.04613673    -0.115015445
trastornos_embarazo      0.156260785       -0.23185649    -0.006669577
trastornos_mentales      0.025160557       -0.02279028    -0.283232327
enf_cardiovasculares    -0.041829231        0.02756519    -0.033413707
infecciones_respi       -0.042452420        0.02961042     0.042717866
enf_sist_digestivo      -0.001186881       -0.01731619     0.034135044
neoplasias              -0.094760670        0.11623045     0.039580268
enf_cronicas            -0.035952644        0.03929532     0.066176393
                     causas_externas trastornos_embarazo trastornos_mentales
enf_infec_paras          0.038279845         0.156260785          0.02516056
enf_sist_nervioso       -0.046136731        -0.231856488         -0.02279028
enf_metabolicas         -0.115015445        -0.006669577         -0.28323233
causas_externas          0.114413277         0.004220118          0.19099494
trastornos_embarazo      0.004220118         0.676929258         -0.25991108
trastornos_mentales      0.190994935        -0.259911082          0.71067096
enf_cardiovasculares     0.018303168        -0.055580658          0.06909179
infecciones_respi       -0.117170092         0.036597816         -0.26956246
enf_sist_digestivo      -0.014898277        -0.051563853         -0.04917073
neoplasias              -0.022906517        -0.208233521          0.00425763
enf_cronicas            -0.050084283        -0.060192797         -0.11550900
                     enf_cardiovasculares infecciones_respi enf_sist_digestivo
enf_infec_paras               -0.04182923       -0.04245242       -0.001186881
enf_sist_nervioso              0.02756519        0.02961042       -0.017316192
enf_metabolicas               -0.03341371        0.04271787        0.034135044
causas_externas                0.01830317       -0.11717009       -0.014898277
trastornos_embarazo           -0.05558066        0.03659782       -0.051563853
trastornos_mentales            0.06909179       -0.26956246       -0.049170726
enf_cardiovasculares           0.07792913       -0.05831310       -0.012397577
infecciones_respi             -0.05831310        0.38763379       -0.010735625
enf_sist_digestivo            -0.01239758       -0.01073563        0.122399450
neoplasias                     0.03148710       -0.02542380        0.002100116
enf_cronicas                  -0.02284209        0.02709761       -0.001365479
                       neoplasias enf_cronicas
enf_infec_paras      -0.094760670 -0.035952644
enf_sist_nervioso     0.116230449  0.039295318
enf_metabolicas       0.039580268  0.066176393
causas_externas      -0.022906517 -0.050084283
trastornos_embarazo  -0.208233521 -0.060192797
trastornos_mentales   0.004257630 -0.115508996
enf_cardiovasculares  0.031487099 -0.022842095
infecciones_respi    -0.025423795  0.027097606
enf_sist_digestivo    0.002100116 -0.001365479
neoplasias            0.116704717  0.040964224
enf_cronicas          0.040964224  0.112412753

Podemos ver que los valores de las varianzas se agrupan entre \(0.07792913\) y \(0.71067096\), siendo el valor mínimo de enf_cardiovasculares y el máximo de trastornos_mentales. Debido a esta diferencia entre las varianzas, realizaremos el ACP escalado, ya que si no, las componentes principales le darían más peso a las variables con una alta varianza. Veamos de una forma más clara las varianzas ordenadas de menor a mayor.

enf_cardiovasculares         enf_cronicas      causas_externas 
          0.07792913           0.11241275           0.11441328 
          neoplasias   enf_sist_digestivo    enf_sist_nervioso 
          0.11670472           0.12239945           0.15410203 
     enf_infec_paras      enf_metabolicas    infecciones_respi 
          0.21655063           0.30884392           0.38763379 
 trastornos_embarazo  trastornos_mentales 
          0.67692926           0.71067096 

Por otro lado, la matriz de correlaciones es:

La mayor correlación positiva se encuentra entre enf_sist_nervioso y neoplasias, con un valor de \(0.86\). Por otro lado, la mayor correlación negativa se encuentra entre enf_sist_nervioso y trastornos_embarazo, con un valor de \(-0.75\).

Pasemos al estudio de las componentes principales. Calculemos los valores y vectores propios de la matriz de varianzas-covarianzas.

Vectores propios
                             PC1         PC2         PC3         PC4
enf_infec_paras      -0.37739486 -0.15341765 -0.09017574 -0.36305145
enf_sist_nervioso     0.43906293  0.22926586  0.16301942 -0.10996887
enf_metabolicas       0.32867426 -0.26165260 -0.19991121  0.35981796
causas_externas      -0.34924308  0.33895946 -0.06539009 -0.06257968
trastornos_embarazo  -0.30003517 -0.37255160  0.20580583  0.35778912
trastornos_mentales  -0.22157975  0.46689991 -0.01933664 -0.20231476
enf_cardiovasculares  0.03935072  0.38706880  0.16803558  0.57457724
infecciones_respi     0.15874876 -0.33437312  0.37361945 -0.18075570
enf_sist_digestivo    0.05043297 -0.08272507 -0.84099285  0.08846882
neoplasias            0.41254267  0.30496430 -0.03810822 -0.08373264
enf_cronicas          0.31015494 -0.14926508 -0.04211940 -0.41966831
                             PC5          PC6         PC7         PC8
enf_infec_paras       0.07559483 -0.446806994  0.57880437  0.05988289
enf_sist_nervioso    -0.08509363 -0.007630757  0.36383159 -0.21469035
enf_metabolicas       0.28515246  0.430789163  0.26122536  0.18540465
causas_externas       0.13288143  0.244020077 -0.24878462 -0.59662032
trastornos_embarazo   0.22513594 -0.059222500 -0.06783193 -0.25850934
trastornos_mentales  -0.06126406  0.326785873 -0.06311320  0.52706790
enf_cardiovasculares -0.04391479 -0.562875620 -0.14028278  0.21210204
infecciones_respi    -0.64196432  0.031456750 -0.23574740 -0.03972099
enf_sist_digestivo   -0.37001376 -0.175443423 -0.16322546 -0.08646310
neoplasias            0.07678490 -0.129915515  0.15381046 -0.37566307
enf_cronicas          0.52610153 -0.281792375 -0.51801433  0.14212709
                             PC9        PC10       PC11
enf_infec_paras       0.25772819  0.10726273 -0.2687331
enf_sist_nervioso    -0.02248418 -0.69161468 -0.2266969
enf_metabolicas       0.39890331  0.14984208 -0.3209305
causas_externas       0.46988076 -0.03077649 -0.1953348
trastornos_embarazo  -0.48128472 -0.13345104 -0.4751307
trastornos_mentales  -0.24900095  0.01650408 -0.4868282
enf_cardiovasculares  0.28381026  0.01713027 -0.1612098
infecciones_respi     0.23964460  0.18375380 -0.3595442
enf_sist_digestivo   -0.10234308 -0.14971729 -0.2020371
neoplasias           -0.32024388  0.63191104 -0.1972812
enf_cronicas          0.09227327 -0.11356366 -0.1936196

Podemos ver que entre la primera y segunda componente le dan un peso considerable a todas las variables, menos a enf_sist_digestivo, la cual le da peso la tercera componente.

Valores propios
         eigenvalue variance.percent cumulative.variance.percent
Dim.1  3.589030e+00     3.262755e+01                    32.62755
Dim.2  2.850225e+00     2.591114e+01                    58.53868
Dim.3  1.143080e+00     1.039164e+01                    68.93032
Dim.4  9.613987e-01     8.739988e+00                    77.67031
Dim.5  8.761257e-01     7.964779e+00                    85.63509
Dim.6  5.659185e-01     5.144714e+00                    90.77980
Dim.7  4.613400e-01     4.194000e+00                    94.97380
Dim.8  3.117360e-01     2.833963e+00                    97.80777
Dim.9  1.692287e-01     1.538442e+00                    99.34621
Dim.10 7.191690e-02     6.537900e-01                   100.00000
Dim.11 1.606165e-29     1.460150e-28                   100.00000

A partir de esta tabla de valores podemos ver que con dos componentes principales nos permiten explicar aproximadamente el \(58\%\) de la variación total. Para ver de una manera más detallada el peso de estas componentes, podemos hacer el siguiente gráfico, donde se muestra un diagrama de barras donde a cada dimensión le asociamos el porcentaje de variación que explica:

A partir de la tabla y el gráfico podemos elegir dos componentes principales, ya que a partir de la tercera componente el porcentaje de variabilidad no aumenta lo suficiente como para considerar una dimensión más. Representemos estas variables en el espacio.

La mayoría de variables están bien representadas y contribuyen aproximadamente lo mismo al plano principal, exceptuando enf_sist_digestivo debido al poco peso que tiene.

Podemos ver las contribuciones de cada variable al plano principal

Veamos también la calidad de representación de las variables:

En estos dos gráficos podemos ver de forma clara la mala representación de enf_sist_digestivo.

Por último veamos una representación de los países en el plano principal con un biplot.

En este gráfico no podemos ver una agrupación clara.

ACP 2019

Veamos ahora un análisis en componentes principales donde tomaremos los datos de 2019. Construyamos primero este conjunto de datos.

Veamos si hay alguna entrada que sea \(0\).

Rows: 1
Columns: 1
$ total_ceros <int> 3

Como hay un \(0\), para poder realizar la transformación clr lo tendremos que imputar. Lo vamos a sustituir por \(0.65\) y luego aplicaremos la transformación clr y centraremos los datos.

Antes de realizar el método de componentes principales, observemos la matriz de varianzas-covarianzas y la matriz de correlación.

Matriz de varianzas-covarianzas
                     enf_infec_paras enf_sist_nervioso enf_metabolicas
enf_infec_paras           0.52591010       -0.17684369    -0.211983432
enf_sist_nervioso        -0.17684369        0.18849283     0.022611515
enf_metabolicas          -0.21198343        0.02261151     0.413417558
causas_externas           0.12299825       -0.06740077    -0.103699010
trastornos_embarazo       0.06142779       -0.20148417     0.081427058
trastornos_mentales       0.04540491       -0.01941686    -0.311277341
enf_cardiovasculares      0.06639701       -0.03832670    -0.032740975
infecciones_respi        -0.14392176        0.10332992    -0.004462877
enf_sist_digestivo        0.04812600       -0.02500707    -0.041250347
neoplasias               -0.14301895        0.11524958     0.055259000
enf_cronicas             -0.19449623        0.09879542     0.132698851
                     causas_externas trastornos_embarazo trastornos_mentales
enf_infec_paras          0.122998252         0.061427789          0.04540491
enf_sist_nervioso       -0.067400771        -0.201484175         -0.01941686
enf_metabolicas         -0.103699010         0.081427058         -0.31127734
causas_externas          0.112315325         0.003598419          0.12257052
trastornos_embarazo      0.003598419         0.526289576         -0.25953491
trastornos_mentales      0.122570518        -0.259534905          0.73138636
enf_cardiovasculares     0.064021442         0.026787310         -0.01823353
infecciones_respi       -0.114169446        -0.059213842         -0.09230832
enf_sist_digestivo       0.020321483        -0.024835396          0.02190583
neoplasias              -0.053519605        -0.123919746         -0.06174700
enf_cronicas            -0.107036608        -0.030542089         -0.15874968
                     enf_cardiovasculares infecciones_respi enf_sist_digestivo
enf_infec_paras                0.06639701      -0.143921757         0.04812600
enf_sist_nervioso             -0.03832670       0.103329917        -0.02500707
enf_metabolicas               -0.03274097      -0.004462877        -0.04125035
causas_externas                0.06402144      -0.114169446         0.02032148
trastornos_embarazo            0.02678731      -0.059213842        -0.02483540
trastornos_mentales           -0.01823353      -0.092308317         0.02190583
enf_cardiovasculares           0.13490032      -0.124408440         0.01934691
infecciones_respi             -0.12440844       0.281080158        -0.02903145
enf_sist_digestivo             0.01934691      -0.029031447         0.06812191
neoplasias                    -0.01246041       0.063510358        -0.02143973
enf_cronicas                  -0.08528294       0.119595692        -0.03625814
                      neoplasias enf_cronicas
enf_infec_paras      -0.14301895  -0.19449623
enf_sist_nervioso     0.11524958   0.09879542
enf_metabolicas       0.05525900   0.13269885
causas_externas      -0.05351960  -0.10703661
trastornos_embarazo  -0.12391975  -0.03054209
trastornos_mentales  -0.06174700  -0.15874968
enf_cardiovasculares -0.01246041  -0.08528294
infecciones_respi     0.06351036   0.11959569
enf_sist_digestivo   -0.02143973  -0.03625814
neoplasias            0.10422646   0.07786005
enf_cronicas          0.07786005   0.18341568

Podemos ver que los valores de las varianzas se agrupan entre \(0.06812191\) y \(0.73138636\), siendo el valor mínimo de enf_sist_digestivo y el máximo de trastornos_mentales. Debido a esta diferencia entre las varianzas, realizaremos el ACP escalado, ya que si no, las componentes principales le darían más peso a las variables con una alta varianza. Veamos de una forma más clara las varianzas ordenadas de menor a mayor.

  enf_sist_digestivo           neoplasias      causas_externas 
          0.06812191           0.10422646           0.11231532 
enf_cardiovasculares         enf_cronicas    enf_sist_nervioso 
          0.13490032           0.18341568           0.18849283 
   infecciones_respi      enf_metabolicas      enf_infec_paras 
          0.28108016           0.41341756           0.52591010 
 trastornos_embarazo  trastornos_mentales 
          0.52628958           0.73138636 

Por otro lado, la matriz de correlaciones es:

La mayor correlación positiva se encuentra entre enf_sist_nervioso y neoplasias, con un valor de \(0.67\). Por otro lado, la mayor correlación negativa se encuentra entre causas_externas y enf_cronicas, con un valor de \(-0.69\).

Pasemos al estudio de las componentes principales. Calculemos los valores y vectores propios de la matriz de varianzas-covarianzas.

Vectores propios
                            PC1         PC2         PC3         PC4
enf_infec_paras       0.3476855  0.02638331  0.18214977 -0.19558768
enf_sist_nervioso    -0.3502260 -0.35963478 -0.19241148 -0.01573654
enf_metabolicas      -0.2313653  0.40756985 -0.31648977  0.02717368
causas_externas       0.3918773 -0.16037239 -0.14630368  0.19918159
trastornos_embarazo   0.1236024  0.59320003  0.13964238  0.13100188
trastornos_mentales   0.1738467 -0.48618795  0.22171509  0.36801936
enf_cardiovasculares  0.2565918  0.01251284 -0.62332291 -0.02772325
infecciones_respi    -0.3215388 -0.06330357  0.46467139 -0.16284811
enf_sist_digestivo    0.1852265 -0.13020524 -0.02717226 -0.85967896
neoplasias           -0.3611805 -0.23229135 -0.36356431 -0.02045026
enf_cronicas         -0.4121550  0.12162515  0.04693491 -0.04161916
                              PC5          PC6          PC7         PC8
enf_infec_paras      -0.456142693 -0.629528093 -0.009381898 -0.19091507
enf_sist_nervioso    -0.185860655  0.004556406 -0.116195984 -0.03016438
enf_metabolicas       0.434656647 -0.395194076  0.358919611  0.25832983
causas_externas      -0.007208228  0.009815357 -0.405917002  0.74823920
trastornos_embarazo  -0.069171189  0.468430383 -0.134724955 -0.12353776
trastornos_mentales   0.446692172  0.091189080  0.145995564 -0.28759007
enf_cardiovasculares -0.283930656  0.324038738  0.166113240 -0.21168631
infecciones_respi    -0.317116046  0.272335094  0.352723638  0.40013279
enf_sist_digestivo    0.369113391  0.184353623 -0.075196811  0.02279374
neoplasias           -0.193503992  0.026706514  0.025790669  0.02096893
enf_cronicas          0.096047166 -0.076088402 -0.703580673 -0.17944114
                              PC9        PC10       PC11
enf_infec_paras      -0.008926218 -0.07174244 -0.4010618
enf_sist_nervioso    -0.673428518  0.38807415 -0.2401060
enf_metabolicas      -0.013324754  0.11030996 -0.3555904
causas_externas       0.013174191 -0.01818242 -0.1853425
trastornos_embarazo  -0.358026687 -0.22226300 -0.4012065
trastornos_mentales   0.107821178 -0.04011691 -0.4729650
enf_cardiovasculares  0.365269814  0.33466409 -0.2031244
infecciones_respi     0.280542932  0.16200006 -0.2932045
enf_sist_digestivo   -0.078857803 -0.07411248 -0.1443441
neoplasias            0.079683204 -0.77814071 -0.1785437
enf_cronicas          0.426099038  0.17748996 -0.2368502

Podemos ver que entre la primera y segunda componente le dan un peso considerable a la mayoría de las variables, exceptuando quizás a enf_infec_paras, enf_cardiovasculares, infecciones_respi y enf_sist_digestivo, aunque la tercera y cuarta componentes ya les dan más peso.

Valores propios
         eigenvalue variance.percent cumulative.variance.percent
Dim.1  4.559371e+00     4.144882e+01                    41.44882
Dim.2  2.086194e+00     1.896540e+01                    60.41423
Dim.3  1.367380e+00     1.243073e+01                    72.84496
Dim.4  9.307344e-01     8.461222e+00                    81.30618
Dim.5  7.202543e-01     6.547766e+00                    87.85394
Dim.6  5.226827e-01     4.751661e+00                    92.60560
Dim.7  2.830710e-01     2.573373e+00                    95.17898
Dim.8  2.378747e-01     2.162498e+00                    97.34148
Dim.9  1.555204e-01     1.413821e+00                    98.75530
Dim.10 1.369174e-01     1.244703e+00                   100.00000
Dim.11 1.836684e-29     1.669713e-28                   100.00000

A partir de esta tabla de valores podemos ver que con dos componentes principales nos permiten explicar aproximadamente el \(60\%\) de la variación total. Para ver de una manera más detallada el peso de estas componentes, podemos hacer el siguiente gráfico, donde se muestra un diagrama de barras donde a cada dimensión le asociamos el porcentaje de variación que explica:

A partir de la tabla y el gráfico podemos elegir dos o tres componentes principales, ya que a partir de la cuarta componente el porcentaje de variabilidad no aumenta lo suficiente como para considerar una dimensión más. Representemos estas variables en el espacio.

La mayoría de variables están bien representadas y contribuyen aproximadamente lo mismo al plano principal, exceptuando enf_sist_digestivo y enf_cardiovasculares debido al poco peso que tienen.

Podemos ver las contribuciones de cada variable al plano principal

Veamos también la calidad de representación de las variables:

En estos dos gráficos podemos ver de forma clara la mala representación de enf_sist_digestivo y enf_cardiovasculares, seguidas de infecciones_respi y enf_infec_paras.

Por último veamos una representación de los países en el plano principal con un biplot.

En este gráfico tampoco podemos ver una agrupación clara.

Para acabar veamos juntos los tres gráficos que hemos analizado:

7 - Análisis en coordenadas principales

Vamos a realizar también un análisis en coordenadas principales (o escalamiento multidimensional). Este análisis se hará, de nuevo, en los tres conjuntos de datos que hemos construido en el ACP. Por su naturaleza composicional, no podemos utilizar las distancias Euclídea o de Manhattan. En su lugar, utilizaremos la distancia de Aitchison, que es la distancia Euclídea entre dos muestras después de aplicar la transformación CLR. Cuando representemos los puntos, de nuevo los colorearemos según su nivel de IDH.

MDS medianas

Mostremos las distancias entre los primeros 8 países de la tabla.

         ALB      AND      ARM      AUT      AZE      BEL      BGR      BIH
ALB 0.000000 2.978497 1.982236 3.180092 2.390870 2.990935 2.476332 2.782215
AND 2.978497 0.000000 2.633241 2.069521 3.662672 1.455512 1.760401 2.101800
ARM 1.982236 2.633241 0.000000 2.598479 1.969760 2.717939 1.734217 1.366572
AUT 3.180092 2.069521 2.598479 0.000000 4.124652 1.371879 1.802093 1.780303
AZE 2.390870 3.662672 1.969760 4.124652 0.000000 3.829198 3.060792 3.043723
BEL 2.990935 1.455512 2.717939 1.371879 3.829198 0.000000 1.782482 2.268320
BGR 2.476332 1.760401 1.734217 1.802093 3.060792 1.782482 0.000000 1.402533
BIH 2.782215 2.101800 1.366572 1.780303 3.043723 2.268320 1.402533 0.000000

Ahora, aplicamos el método de coordenadas principales con la función de R cmdscale, usando la matriz de distancias anterior y especificando \(k = 2\) (dos componentes principales).

# A tibble: 10 × 3
    Dim.1  Dim.2 grupo_idh 
 *  <dbl>  <dbl> <fct>     
 1 -1.02   1.42  Bajo      
 2 -0.522 -0.391 Medio Alto
 3 -0.955  1.44  Bajo      
 4 -0.107 -0.917 Alto      
 5 -0.553  2.63  Bajo      
 6 -0.365 -1.01  Alto      
 7 -0.614  0.256 Medio Bajo
 8 -0.519  0.546 Bajo      
 9  2.31   0.356 Bajo      
10 -0.143 -0.883 Alto      

Mostramos el gráfico de la matriz de distancias.

Podemos apreciar que el idh es inversamente proporcional a la segunda dimensión, ya que, de forma general, cuanto más IDH tiene un país, más abajo está.

Por último, calculemos los coeficientes de precisión a partir de los valores propios de la matriz de productos cruzados.

  • \(m_{1,2} =\) rm_12_medianas`
  • \(m_{2,2} =\) rm_22_medianas`

con lo que vemos que hay una buena representación.

MDS 1990

Mostremos las distancias entre los primeros 8 países de la tabla.

         ALB       AND      ARM       AUT      AZE      BLR       BEL      BIH
ALB 0.000000 3.6547361 2.126719 3.7138779 1.565650 4.171213 3.3419482 3.392422
AND 3.654736 0.0000000 2.839443 1.1472965 3.708782 2.334574 0.7801658 2.484708
ARM 2.126719 2.8394426 0.000000 2.7080688 1.792098 2.914615 2.6690054 1.844472
AUT 3.713878 1.1472965 2.708069 0.0000000 3.649384 2.353752 0.9917369 2.263499
AZE 1.565650 3.7087825 1.792098 3.6493836 0.000000 3.870810 3.5024897 2.780160
BLR 4.171213 2.3345743 2.914615 2.3537520 3.870810 0.000000 2.5409511 1.789643
BEL 3.341948 0.7801658 2.669005 0.9917369 3.502490 2.540951 0.0000000 2.610842
BIH 3.392422 2.4847077 1.844472 2.2634994 2.780160 1.789643 2.6108417 0.000000

Ahora, aplicamos el método de coordenadas principales con la función de R cmdscale, usando la matriz de distancias anterior y especificando \(k = 2\) (dos componentes principales).

# A tibble: 10 × 3
      Dim.1  Dim.2 grupo_idh 
 *    <dbl>  <dbl> <fct>     
 1  2.44     0.827 Bajo      
 2 -0.387   -0.911 Bajo      
 3  1.17     1.11  Bajo      
 4 -0.360   -0.840 Alto      
 5  1.81     1.50  Bajo      
 6 -1.48     0.817 Medio Bajo
 7  0.00611 -1.12  Alto      
 8 -0.237    1.27  Bajo      
 9  0.199   -0.529 Bajo      
10 -0.635    0.185 Bajo      

Mostramos el gráfico de la matriz de distancias.

Podemos ver en la parte superior una agrupación de los países con un IDH bajo, mientras que en la parte inferior izquierda se agrupan los países con un IDH alto.

Por último, calculemos los coeficientes de precisión a partir de los valores propios de la matriz de productos cruzados.

  • \(m_{1,2} =\) rm_12_1990`
  • \(m_{2,2} =\) rm_22_1990`

Con estos valores de los coeficientes de precisión vemos que hay una buena representación.

MDS 2019

Mostremos las distancias entre los primeros 8 países de la tabla.

         ALB      AND      ARM      AUT      AZE      BLR      BEL      BIH
ALB 0.000000 2.790756 2.035378 2.559235 2.807594 3.731074 2.501540 2.744661
AND 2.790756 0.000000 2.412840 2.343360 3.763101 3.897638 1.895148 2.318280
ARM 2.035378 2.412840 0.000000 2.177954 2.059518 3.832924 2.383600 1.343067
AUT 2.559235 2.343360 2.177954 0.000000 3.907126 3.193728 1.398166 1.882968
AZE 2.807594 3.763101 2.059518 3.907126 0.000000 4.223308 3.838282 3.036226
BLR 3.731074 3.897638 3.832924 3.193728 4.223308 0.000000 3.512212 3.855180
BEL 2.501540 1.895148 2.383600 1.398166 3.838282 3.512212 0.000000 2.489385
BIH 2.744661 2.318280 1.343067 1.882968 3.036226 3.855180 2.489385 0.000000

Ahora, aplicamos el método de coordenadas principales con la función de R cmdscale, usando la matriz de distancias anterior y especificando \(k = 2\) (dos componentes principales).

# A tibble: 10 × 3
     Dim.1    Dim.2 grupo_idh 
 *   <dbl>    <dbl> <fct>     
 1 -0.582   0.937   Bajo      
 2 -0.580  -0.00406 Medio Bajo
 3 -0.594   1.37    Bajo      
 4 -0.197  -0.652   Alto      
 5  0.147   2.83    Bajo      
 6  2.81   -0.0717  Bajo      
 7 -0.448  -0.843   Alto      
 8 -0.588   0.834   Bajo      
 9 -0.653   0.563   Bajo      
10  0.0872 -0.399   Medio Bajo

Mostramos el gráfico de la matriz de distancias.

En este gráfico también se puede apreciar una transición de abajo hacia arriba de países con más IDH hacia países con menos IDH.

Por último, calculemos los coeficientes de precisión a partir de los valores propios de la matriz de productos cruzados.

  • \(m_{1,2} =\) rm_12_2019`
  • \(m_{2,2} =\) rm_22_2019`

Con estos valores de los coeficientes de precisión vemos que hay una buena representación.

8 - Ajuste de modelo NBMM

Vamos a ajustar el modelo NBMM a los datos. Un primer ajuste será intentar explicar una causa de muerte a partir del IDH.

Haremos tres ajustes: uno con enfermedades del sistema nervioso, con una alta correlación positiva con el IDH; otro con enfermedades del sistema digestivo, con una correlación casi nula con el IDH; y otro con trastornos del embarazo, con una alta correlación negativa con el IDH.

N = new_data$total_muertes

m_enf_sist_nervioso = glmm.nb(enf_sist_nervioso ~ idh + offset(log(N)), random = ~ 1 | pais,
                              data = new_data)
Loading required namespace: nlme

Attaching package: 'nlme'
The following object is masked from 'package:dplyr':

    collapse

Attaching package: 'MASS'
The following object is masked from 'package:dplyr':

    select
Computational iterations: 4 
Computational time: 0.001 minutes 
summary(m_enf_sist_nervioso)
Linear mixed-effects model fit by maximum likelihood
  Data: new_data 
  AIC BIC logLik
   NA  NA     NA

Random effects:
 Formula: ~1 | pais
        (Intercept) Residual
StdDev:   0.3179035 1.013457

Variance function:
 Structure: fixed weights
 Formula: ~invwt 
Fixed effects:  enf_sist_nervioso ~ idh + offset(log(N)) 
                Value  Std.Error   DF   t-value p-value
(Intercept) -5.237060 0.07486531 1333 -69.95310       0
idh          2.530832 0.07398566 1333  34.20706       0
 Correlation: 
    (Intr)
idh -0.777

Standardized Within-Group Residuals:
       Min         Q1        Med         Q3        Max 
-2.9500117 -0.6284852 -0.1127711  0.5817225  6.6117323 

Number of Observations: 1380
Number of Groups: 46 
m_enf_sist_digestivo = glmm.nb(enf_sist_digestivo ~ idh + offset(log(N)), random = ~ 1 | pais,
                              data = new_data)
Computational iterations: 3 
Computational time: 0.001 minutes 
summary(m_enf_sist_digestivo)
Linear mixed-effects model fit by maximum likelihood
  Data: new_data 
  AIC BIC logLik
   NA  NA     NA

Random effects:
 Formula: ~1 | pais
        (Intercept)  Residual
StdDev:   0.3050971 0.8002482

Variance function:
 Structure: fixed weights
 Formula: ~invwt 
Fixed effects:  enf_sist_digestivo ~ idh + offset(log(N)) 
                Value  Std.Error   DF   t-value p-value
(Intercept) -3.166285 0.06366511 1333 -49.73345       0
idh          0.549228 0.05715330 1333   9.60973       0
 Correlation: 
    (Intr)
idh -0.705

Standardized Within-Group Residuals:
        Min          Q1         Med          Q3         Max 
-3.45398832 -0.56407504  0.05523347  0.55692873  3.24466072 

Number of Observations: 1380
Number of Groups: 46 
m_trastornos_embarazo = glmm.nb(trastornos_embarazo ~ idh + offset(log(N)), random = ~ 1 | pais,
                              data = new_data)
Computational iterations: 10 
Computational time: 0.002 minutes 
summary(m_trastornos_embarazo)
Linear mixed-effects model fit by maximum likelihood
  Data: new_data 
  AIC BIC logLik
   NA  NA     NA

Random effects:
 Formula: ~1 | pais
        (Intercept) Residual
StdDev:   0.7878784 1.083309

Variance function:
 Structure: fixed weights
 Formula: ~invwt 
Fixed effects:  trastornos_embarazo ~ idh + offset(log(N)) 
                Value Std.Error   DF    t-value p-value
(Intercept) -1.637392 0.1868669 1333  -8.762342       0
idh         -4.853906 0.1862756 1333 -26.057654       0
 Correlation: 
    (Intr)
idh -0.78 

Standardized Within-Group Residuals:
       Min         Q1        Med         Q3        Max 
-2.0390610 -0.5238413 -0.1021465  0.3196700 13.7008817 

Number of Observations: 1380
Number of Groups: 46 

9 - Dudas

  • En 2.3: Ya que no haremos parte temporal, ¿consideramos año como covariable? Si es así, variable cuantitativa?
  • En 6 y 7. ¿Coloreamos por grupos como está o coloreamos de forma gradual?